解决了与人类偏好的安全一致性以及学习效率之类的各种目的,越来越多的强化学习研究集中在依赖整个收益分配的风险功能上。关于\ emph {Oplicy风险评估}(OPRA)的最新工作,针对上下文匪徒引入了目标策略的收益率以及有限样本保证的一致估计量,并保证了(并同时保留所有风险)。在本文中,我们将OPRA提升到马尔可夫决策过程(MDPS),其中重要性采样(IS)CDF估计量由于有效样本量较小而遭受较长轨迹的较大差异。为了减轻这些问题,我们合并了基于模型的估计,以开发MDPS回报的CDF的第一个双重鲁棒(DR)估计器。该估计器的差异明显较小,并且在指定模型时,可以实现Cramer-Rao方差下限。此外,对于许多风险功能,下游估计值同时享有较低的偏差和较低的差异。此外,我们得出了非政策CDF和风险估计的第一个Minimax下限,这与我们的误差界限到恒定因子。最后,我们在几种不同的环境上实验表明了DR CDF估计的精度。
translated by 谷歌翻译
A number of competing hypotheses have been proposed to explain why small-batch Stochastic Gradient Descent (SGD)leads to improved generalization over the full-batch regime, with recent work crediting the implicit regularization of various quantities throughout training. However, to date, empirical evidence assessing the explanatory power of these hypotheses is lacking. In this paper, we conduct an extensive empirical evaluation, focusing on the ability of various theorized mechanisms to close the small-to-large batch generalization gap. Additionally, we characterize how the quantities that SGD has been claimed to (implicitly) regularize change over the course of training. By using micro-batches, i.e. disjoint smaller subsets of each mini-batch, we empirically show that explicitly penalizing the gradient norm or the Fisher Information Matrix trace, averaged over micro-batches, in the large-batch regime recovers small-batch SGD generalization, whereas Jacobian-based regularizations fail to do so. This generalization performance is shown to often be correlated with how well the regularized model's gradient norms resemble those of small-batch SGD. We additionally show that this behavior breaks down as the micro-batch size approaches the batch size. Finally, we note that in this line of inquiry, positive experimental findings on CIFAR10 are often reversed on other datasets like CIFAR100, highlighting the need to test hypotheses on a wider collection of datasets.
translated by 谷歌翻译
Rates of missing data often depend on record-keeping policies and thus may change across times and locations, even when the underlying features are comparatively stable. In this paper, we introduce the problem of Domain Adaptation under Missingness Shift (DAMS). Here, (labeled) source data and (unlabeled) target data would be exchangeable but for different missing data mechanisms. We show that when missing data indicators are available, DAMS can reduce to covariate shift. Focusing on the setting where missing data indicators are absent, we establish the following theoretical results for underreporting completely at random: (i) covariate shift is violated (adaptation is required); (ii) the optimal source predictor can perform worse on the target domain than a constant one; (iii) the optimal target predictor can be identified, even when the missingness rates themselves are not; and (iv) for linear models, a simple analytic adjustment yields consistent estimates of the optimal target parameters. In experiments on synthetic and semi-synthetic data, we demonstrate the promise of our methods when assumptions hold. Finally, we discuss a rich family of future extensions.
translated by 谷歌翻译
对于大多数自然语言处理任务,主要的实践是使用较小的下游数据集对大型预验证变压器模型(例如BERT)。尽管这种方法取得了成功,但尚不清楚这些收益在多大程度上归因于用于预处理而不是训练预处理的目标本身所采用的大量背景语料库。本文介绍了一项大规模的自我预测研究,其中相同的(下游)训练数据都用于预训练和填充。在解决Electra和Roberta型号以及10个不同下游数据集的实验中,我们观察到在BookWiki语料库上进行自我预测的竞争对手标准预告片(尽管使用了$ 10 \ times $ $ -500 \ times $ -500 \ times $少的数据),在7美元上以7美元的价格优于$ 7 $和$ 5 $数据集。令人惊讶的是,这些特定于任务的预预性模型通常在其他任务(包括胶水基准)上表现良好。我们的结果表明,在许多情况下,可归因于预处理的绩效收益主要是由预处理目标本身驱动的,并不总是归因于大规模数据集的合并。考虑到网络规模预处理数据中对知识产权和进攻内容的担忧,这些发现尤其重要。
translated by 谷歌翻译
尽管对作者身份归因(AA)和作者身份验证(AV)进行了数十年的研究,但数据集拆分/过滤和不匹配的评估方法不一致,因此很难评估艺术的状态。在本文中,我们介绍了对领域的调查,解决混乱点,介绍瓦拉(Valla)标准化和基准测试AA/AV数据集和指标,提供了大规模的经验评估,并提供现有方法之间的苹果对苹果比较。我们评估了15个数据集(包括分配偏移的挑战集)上的八种有希望的方法,并根据Project Gutenberg归档的文本引入了新的大规模数据集。令人惊讶的是,我们发现基于NGRAM的传统模型在5(7个)AA任务上表现最佳,达到了76.50美元的平均宏观准确性\%$(相比之下,基于BERT的型号为66.71美元\%$)。但是,在两个AA数据集上,每个作者和AV数据集中的单词数量最多,基于BERT的模型表现最好。虽然AV方法很容易应用于AA,但很少将它们作为基准包含在AA论文中。我们表明,通过应用硬性采矿,AV方法是AA方法的竞争替代方法。 Valla和所有实验代码可以在此处找到:https://github.com/jacobtyo/valla
translated by 谷歌翻译
随着COVID-19现在普遍存在,对高危个体的识别至关重要。利用来自宾夕法尼亚州西南部主要医疗保健提供者的数据,我们开发了预测严重Covid-19进展的生存模型。在这项工作中,我们在依赖许多功能的更准确模型和依赖一些与临床医生直觉相一致的功能的模型之间面临一个权衡。使事情变得复杂,许多EHR功能往往较低,从而降低了较小模型的准确性。在这项研究中,我们开发了两组高性能风险评分:(i)由所有可用功能构建的无约束模型;(ii)在训练风险预测因子之前,在培训风险预测因子之前就学习一小部分临床概念的管道。学到的概念提高了相应特征(C-Index 0.858 vs. 0.844)的性能,并在评估样本外(随后的时间段)时证明了(i)的改进。我们的模型表现优于先前的工作(C-Index 0.844-0.872 vs. 0.598-0.810)。
translated by 谷歌翻译
哪种结构可以使学习者能够从未标记的数据中发现类?传统方法取决于功能空间的相似性和对数据的英勇假设。在本文中,我们在潜在标签换档(LLS)下介绍了无监督的学习,我们可以从多个域中访问未标记的数据,以便标签边缘$ p_d(y)$可以跨域变化,但是类有条件的$ p(\ mathbf) {x} | y)$不。这项工作实例化了识别类别的新原则:将分组分组的元素。对于有限输入空间,我们在LLS和主题建模之间建立了同构:输入对应于单词,域,文档和标签与主题。解决连续数据时,我们证明,当每个标签的支持包含一个可分离区域时,类似于锚词,Oracle访问$ P(d | \ Mathbf {x})$足以识别$ p_d(y)$和$ p_d( y | \ mathbf {x})$ for排列。因此,我们引入了一种实用算法,该算法利用域 - 歧义模型如下:(i)通过域歧视器$ p(d | \ mathbf {x})推动示例; (ii)通过$ p(d | \ mathbf {x})$ space中的聚类示例来离散数据; (iii)对离散数据执行非负矩阵分解; (iv)将回收的$ P(y | d)$与鉴别器输出$ p(d | \ mathbf {x})$结合在一起计算$ p_d(y | x)\; \ forall d $。通过半合成实验,我们表明我们的算法可以利用域信息来改善无监督的分类方法。当功能空间相似性并不表示真实分组时,我们揭示了标准无监督分类方法的故障模式,并从经验上证明我们的方法可以更好地处理这种情况。我们的结果建立了分销转移与主题建模之间的密切联系,为将来的工作开辟了有希望的界限。
translated by 谷歌翻译
我们介绍了在打开集标签偏移(OSL)下进行域适应的问题,该标签分布可以任意更改,并且在部署期间可能会到达新类,但是类别条件分布p(x | y)是域不变的。 OSLS在标签转移和未标记(PU)学习下适应域的域名。学习者的目标是两个方面:(a)估计目标标签分布,包括新颖的班级; (b)学习目标分类器。首先,我们建立了确定这些数量的必要条件。其次,在标签转移和PU学习方面的进步中,我们提出了针对利用黑盒预测变量的两项任务的实用方法。与典型的开放式域适应(OSDA)问题不同,该问题往往不适合且仅适合启发式方法,OSLS提供了一个适合原则性机械的良好问题。关于视觉,语言和医学数据集的众多半合成基准测试的实验表明,我们的方法始终超过OSDA基线,实现目标域精度的10--25%提高。最后,我们分析了提出的方法,建立了与真正的标签边缘和收敛到高斯设置中线性模型的最佳分类器的有限样本收敛性。代码可在https://github.com/acmi-lab/open-set-label-shift上找到。
translated by 谷歌翻译
标准均匀收敛导致在假设类别上预期损失的概括差距。对风险敏感学习的出现需要超出预期损失分布的功能的概括保证。虽然先前的工作专门从事特定功能的均匀收敛,但我们的工作为一般的H \'较旧风险功能提供了统一的收敛,累积分配功能(CDF)的亲密关系(CDF)需要接近风险。我们建立了第一个统一的融合估计损失分布的CDF的结果,可以保证在所有H \“较旧的风险功能和所有假设上)同时保持。因此,我们获得了实现经验风险最小化的许可,我们开发了基于梯度的实用方法,以最大程度地减少失真风险(广泛研究的H \'H \'较旧风险涵盖了光谱风险,包括平均值,有条件价值,风险的有条件价值,累积前景理论风险和累积前景理论风险,以及其他)并提供融合保证。在实验中,我们证明了学习程序的功效,这是在均匀收敛结果和具有深层网络的高维度的设置中。
translated by 谷歌翻译
某些培训干预措施(例如提高学习率和应用批归归式化)的机制提高了深网的概括仍然是一个谜。先前的作品猜测,“扁平”解决方案比“更清晰”的解决方案更好地概括了看不见的数据,激发了几个指标来测量平坦度(尤其是损失Hessian最大的特征值);和算法,例如清晰度最小化(SAM)[1],它们直接优化了平坦度。其他作品质疑$ \ lambda_ {max} $与概括之间的链接。在本文中,我们提出了调用$ \ lambda_ {max} $对概括的影响的发现。我们表明:(1)虽然较大的学习率减少了所有批量尺寸的$ \ lambda_ {max} $,但概括益处有时会在较大的批量尺寸下消失; (2)通过同时缩放批量的大小和学习率,我们可以更改$ \ lambda_ {max} $,而不会影响概括; (3)虽然SAM生产较小的$ \ lambda_ {max} $,用于所有批次尺寸,概括益处(也)消失,较大的批量尺寸; (4)对于辍学,过高的辍学概率可能会降低概括,即使它们促进了较小的$ \ lambda_ {max} $; (5)虽然批处理范围并未始终产生较小的$ \ lambda_ {max} $,但它仍然赋予概括性优势。尽管我们的实验肯定了大型学习率和SAM对Minibatch SGD的概括优势,但GD-SGD差异证明了对$ \ lambda_ {Max} $解释神经网络中概括的能力的限制。
translated by 谷歌翻译